Unsupervised image registration commonly adopts U-Net style networks to predict dense displacement fields in the full-resolution spatial domain. For high-resolution volumetric image data, this process is however resource intensive and time-consuming. To tackle this problem, we propose the Fourier-Net, replacing the expansive path in a U-Net style network with a parameter-free model-driven decoder. Specifically, instead of our Fourier-Net learning to output a full-resolution displacement field in the spatial domain, we learn its low-dimensional representation in a band-limited Fourier domain. This representation is then decoded by our devised model-driven decoder (consisting of a zero padding layer and an inverse discrete Fourier transform layer) to the dense, full-resolution displacement field in the spatial domain. These changes allow our unsupervised Fourier-Net to contain fewer parameters and computational operations, resulting in faster inference speeds. Fourier-Net is then evaluated on two public 3D brain datasets against various state-of-the-art approaches. For example, when compared to a recent transformer-based method, i.e., TransMorph, our Fourier-Net, only using 0.22$\%$ of its parameters and 6.66$\%$ of the mult-adds, achieves a 0.6\% higher Dice score and an 11.48$\times$ faster inference speed. Code is available at \url{https://github.com/xi-jia/Fourier-Net}.
translated by 谷歌翻译
AI代理应该能够与人类协调以解决任务。我们考虑培训加强学习(RL)代理的问题,而不使用任何人类数据,即在零射击设置中,使其能够与人类合作。标准RL代理商通过自我播放学习。不幸的是,这些代理商只知道如何与自己合作,通常不会与人类的看不见的伙伴表现良好。如何以零射时的方式训练强大的代理的方法仍然需要研究。从最大熵RL激励,我们推出了集中的人口熵目标,以便于学习各种各样的代理商,后来用于培训坚强的代理与看不见的合作伙伴合作。所提出的方法与基线方法相比,其有效性,包括自助PPO,在流行的过度烹制的游戏环境中,包括自行式PPO,标准群体的培训(PBT)和基于轨迹分集的PBT。我们还通过真实人类进行在线实验,并进一步证明了该方法在现实世界中的功效。显示实验结果的补充视频可在https://youtu.be/xh-fkd0aake上获得。
translated by 谷歌翻译
大多数机器视觉任务(例如,语义分割)基于图像编码和解码的图像(例如JPEG)。但是,像素域中的这些解码图像引入了失真,并针对人类的感知进行了优化,从而使机器视觉任务的执行次优。在本文中,我们提出了一种基于压缩域的方法,以改善细分任务。i)提出了一种动态和静态通道选择方法,以减少通过编码获得的压缩表示的冗余。ii)探索和分析了两个不同的变换模块,以帮助将压缩表示形式转换为分割网络中的功能。实验结果表明,与最先进的压缩域的工作相比,我们可以节省多达15.8%的比特率,同时节省约83.6 \%的比特率和44.8%的推理时间,与Pixel-domain-相比基于方法。
translated by 谷歌翻译
无损图像压缩是图像压缩中必不可少的研究领域。最近,与传统的无损方法(例如WebP,JPEG2000和FLIF)相比,基于学习的图像压缩方法具有令人印象深刻的性能。但是,仍然有许多令人印象深刻的有损压缩方法可应用于无损压缩。因此,在本文中,我们探讨了广泛用于有损压缩的方法,并将其应用于无损压缩。受损失压缩显示的高斯混合模型(GMM)的令人印象深刻的性能的启发,我们与GMM生成了无损网络体系结构。除了注意到注意模块和自回归模型的成功成就外,我们建议利用注意模块,并为我们的网络体系结构中的原始图像添加额外的自动回归模型,以提高性能。实验结果表明,我们的方法优于大多数经典的无损压缩方法和现有基于学习的方法。
translated by 谷歌翻译
由于其极端的长距离建模能力,基于视觉变压器的网络在可变形图像注册中变得越来越流行。但是,我们认为,5层卷积U-NET的接受场足以捕获准确的变形而无需长期依赖性。因此,这项研究的目的是研究与现代变压器的方法相比,将基于U-NET的方法用于医学图像注册时是否已过时。为此,我们通过将平行的卷积块嵌入香草U-NET以增强有效的接受场来提出一个大核U-NET(LKU-NET)。在公共3D IXI Brain Dataset上,用于基于ATLAS的注册,我们表明,香草U-NET的性能已经与基于最新的变压器网络(例如Transmorph)相提并论,并且提出的LKU-NET仅使用其参数的1.12%和其多添加操作的10.8%,优于Transmorph。我们进一步评估了MICCAI Learn2Reg 2021挑战数据集中的LKU-NET,以进行主题间注册,我们的LKU-NET在此数据集中也优于TransMorph,并且在此工作提交后,在公共排行榜上排名第一。只有对香草U-NET的适度修改,我们表明U-NET可以在基于主体间和基于ATLAS的3D医疗图像注册上胜过基于变压器的体系结构。代码可在https://github.com/xi-jia/lku-net上找到。
translated by 谷歌翻译
关于无监督的域适应性(UDA)的广泛研究已将有限的实验数据集深入学习到现实世界中无约束的领域。大多数UDA接近通用嵌入空间中的对齐功能,并将共享分类器应用于目标预测。但是,由于当域差异很大时可能不存在完全排列的特征空间,因此这些方法受到了两个局限性。首先,由于缺乏目标标签监督,强制域的比对会恶化目标域的可区分性。其次,源监督分类器不可避免地偏向源数据,因此它在目标域中的表现可能不佳。为了减轻这些问题,我们建议在两个集中在不同领域的空间中同时进行特征对齐,并为每个空间创建一个针对该域的面向域的分类器。具体而言,我们设计了一个面向域的变压器(DOT),该变压器(DOT)具有两个单独的分类令牌,以学习不同的面向域的表示形式和两个分类器,以保持域的可区分性。理论保证的基于对比度的对齐和源指导的伪标签细化策略被用来探索域名和特定信息。全面的实验验证了我们的方法在几个基准上实现了最先进的方法。
translated by 谷歌翻译
我们开发了一个通用框架,统一了几种基于梯度的随机优化方法,用于在集中式和分布式场景中,用于经验风险最小化问题。该框架取决于引入的增强图的引入,该图形由对样品进行建模和边缘建模设备设备间通信和设备内随机梯度计算。通过正确设计增强图的拓扑结构,我们能够作为特殊情况恢复为著名的本地-SGD和DSGD算法,并提供了统一的方差还原(VR)和梯度跟踪(GT)方法(例如Saga) ,本地-SVRG和GT-SAGA。我们还提供了统一的收敛分析,以依靠适当的结构化lyapunov函数,以实现平滑和(强烈的)凸目标,并且获得的速率可以恢复许多现有算法的最著名结果。速率结果进一步表明,VR和GT方法可以有效地消除设备内部和跨设备内的数据异质性,从而使算法与最佳解决方案的确切收敛性。数值实验证实了本文中的发现。
translated by 谷歌翻译
端到端的语音到文本翻译模型通常使用预训练的语音编码器和预训练的文本解码器初始化。这导致了预训练和微调之间的显着训练差距,这在很大程度上是由于语音输出与解码器的文本输入之间的形式差异。在这项工作中,我们旨在弥合语音和文本之间的方式差距,以提高翻译质量。我们提出了一种基于变压器的新型模块M-Adapter,以使语音表示为文本。在缩小语音序列的同时,M-ADAPTER通过建模语音序列的全局和局部依赖性产生了对语音到文本翻译所需的特征。我们的实验结果表明,我们的模型在必要的基线上优于强大的基线,最高1个BLEU得分在必要时$ \ rightarrow $ de DataSet。\ footNote {我们的代码可在https://github.com/mingzi151/w2v2-v2-v2--proce上获得。英石。}
translated by 谷歌翻译
随着深度学习的兴起,视频对象细分(VOS)取得了重大进展。但是,仍然存在一些棘手的问题,例如,类似的对象很容易混淆,很难找到微小的对象。为了解决这些问题并进一步提高VOS的性能,我们为这项任务提出了一个简单而有效的解决方案。在解决方案中,我们首先分析YouTube-VOS数据集的分布,并通过引入公共静态和视频分割数据集来补充数据集。然后,我们改善了具有不同特征的三个网络体系结构,并训练多个网络以学习视频中对象的不同特征。之后,我们使用一种简单的方法来集成所有结果,以确保不同的模型相互补充。最后,进行了微妙的后处理,以确保具有精确边界的准确视频对象分割。 YouTube-VOS数据集的大量实验表明,该建议的解决方案在YouTube-VOS 2022测试集上以86.1%的总分达到了最先进的性能,这是YouTube视频对象细分的第五名-VOS挑战2022。
translated by 谷歌翻译
在图像识别中已广泛提出了生成模型,以生成更多图像,其中分布与真实图像相似。它通常会引入一个歧视网络,以区分真实数据与生成的数据。这样的模型利用了一个歧视网络,该网络负责以区分样式从目标数据集中包含的数据传输的数据。但是,这样做的网络着重于强度分布的差异,并可能忽略数据集之间的结构差异。在本文中,我们制定了一个新的图像到图像翻译问题,以确保生成的图像的结构类似于目标数据集中的图像。我们提出了一个简单但功能强大的结构不稳定的对抗(SUA)网络,该网络在执行图像分割时介绍了训练和测试集之间的强度和结构差异。它由空间变换块组成,然后是强度分布渲染模块。提出了空间变换块来减少两个图像之间的结构缝隙,还产生了一个反变形字段,以使最终的分段图像背部扭曲。然后,强度分布渲染模块将变形结构呈现到具有目标强度分布的图像。实验结果表明,所提出的SUA方法具有在多个数据集之间传递强度分布和结构含量的能力。
translated by 谷歌翻译